专业智能显示方案提供商
OEM产品
OEM产品
行业定制
新闻资讯
+86 13923405632
AI芯片的算力单位有哪些?从FLOPS到MACs的底层逻辑全解
06-24 / 2026 5

买燃油车看马力,买电动车看千瓦。选AI芯片呢?你会发现参数表上列着一串让人眼花缭乱的指标:TOPS、TFLOPS、FP16、INT8、MACs……它们全都跟“算力”有关,但每个单位代表完全不同的含义。选错了指标,你可能花大价钱买了一块“算力爆表”的芯片,却发现跑你的模型还不如一块便宜货。

这篇文章帮你把AI芯片的算力单位全部梳理清楚。读完你会知道:TOPS和FLOPS有什么区别?为什么INT8算力和FP16算力不能直接比较?选购芯片时到底该看哪个数字?

一、基础概念:先搞懂两个“元单位”

FLOPS(Floating Point Operations Per Second)

中文:每秒浮点运算次数。

这是衡量AI芯片最基础的指标之一,表示芯片每秒钟能完成多少次“浮点数运算”(带小数点的数字计算)。FLOPS的前缀决定了数量级:

  • MFLOPS:百万次/秒(10^6)

  • GFLOPS:十亿次/秒(10^9)

  • TFLOPS:万亿次/秒(10^12)

  • PFLOPS:千万亿次/秒(10^15)

  • EFLOPS:百亿亿次/秒(10^18)

FLOPS通常用于衡量训练阶段的算力,因为训练模型普遍使用FP32(单精度浮点数)或FP16(半精度浮点数)进行计算。以英伟达H100为例,其FP32算力为67 TFLOPS,FP16算力高达1979 TFLOPS(约2 PFLOPS)。

OPS(Operations Per Second)

中文:每秒操作次数。

与FLOPS不同,OPS不区分整数还是浮点数,是一个更广义的单位。在AI推理(Inference)场景中,由于大量使用整数运算(INT8、INT4),业界通常用 TOPS(Tera Operations Per Second,每秒万亿次操作)来衡量推理算力。

一个芯片通常同时标两个数字

  • 训练算力用TFLOPS(浮点)

  • 推理算力用TOPS(整数)

二者不能直接换算,因为浮点运算比整数运算更复杂。同一芯片的INT8 TOPS通常是FP16 TFLOPS的2-4倍。

二、精度前缀:FP32、FP16、INT8、INT4……数字越小越快

AI芯片支持不同精度的计算,精度越高越准确,但速度越慢、功耗越大;精度越低速度越快、功耗越低。这就好比用高精度电子秤和普通台秤称东西,电子秤准但慢,台秤快但可能差几克。以下是常见精度级别:

FP32(单精度浮点,32位)

  • 用途:传统科学计算、AI模型训练早期。

  • 算力参考:中端AI芯片约20-100 TFLOPS。

  • 特点:准确但慢,能耗高。

  • 适用场景:科研计算、物理模拟等需要高精度的科学计算任务。

FP16(半精度浮点,16位)

  • 用途:当前AI训练的主流精度。

  • 算力参考:通常是FP32的2-4倍。

  • 特点:精度够用且速度快,大部分大模型训练都跑在FP16上。

BF16(Brain Floating Point,16位)

  • 用途:谷歌、英伟达等力推的格式。

  • 特点:与FP16位数相同,但动态范围与FP32相同(只是精度降低),在大模型训练中更稳定。

  • 算力参考:与FP16算力相近,部分芯片略高。

INT8(8位整数)

  • 用途:AI推理(即模型训练好后的实际使用)。

  • 算力参考:通常是FP16的2-4倍。

  • 特点:精度损失可接受(通常<1%),速度和功耗优势明显。

INT4(4位整数)

  • 用途:边缘设备、端侧AI(手机、耳机、智能家居)。

  • 算力参考:INT8的2倍左右。

  • 特点:速度最快、功耗最低,适合内存带宽有限、对响应速度要求极高的设备端推理。

三、MACs:衡量模型大小的常用单位

MACs(Multiply-Accumulate Operations):乘加运算次数。

AI模型中的核心运算是“矩阵乘法”——把两个矩阵的元素相乘后相加。每一次乘加算一次MAC。1个MAC等于2次操作(一次乘、一次加),但通常不换算成OPS。模型大小常用MACs或参数量(Parameters)来表示,例如ResNet-50约3.8G MACs,GPT-3约175B参数量。

在芯片选型中,参数量(Params) 通常用来描述模型存储大小,MACs用来衡量计算量需求。一款芯片的算力(TFLOPS/TOPS)必须大于模型的计算需求,才能流畅运行。

四、实际芯片算力参考(2026年主流产品)

芯片型号架构训练算力(FP16)推理算力(INT8)主要应用
英伟达 H100Hopper1979 TFLOPS3958 TOPS大模型训练
英伟达 L40SAda733 TFLOPS1466 TOPS云端推理/渲染
英伟达 A100Ampere312 TFLOPS624 TOPS通用AI训练/推理
英伟达 L4Ada121 TFLOPS242 TOPS边缘推理
华为昇腾910BDa Vinci320 TFLOPS(FP16)640 TOPS国产大模型训练
AMD MI300XCDNA 31300 TFLOPS(FP16)2600 TOPS云端训练/推理
Google TPU v6e(Trillium)约900 TFLOPS(BF16)云推理/训练
Intel Gaudi 3约900 TFLOPS(BF16)云端训练/推理
高通骁龙X EliteHexagon NPU45 TOPSPC端AI(Copilot+)
苹果M4 NPU16核38 TOPSiPad/Mac端侧AI
瑞芯微RK3588三核NPU6 TOPS边缘设备(工业/IPC)
联发科天玑9300+APU 79010 TOPS手机端侧AI
高通骁龙8 Gen 4Hexagon NPU22 TOPS手机端侧AI
Intel Lunar Lake NPU第四代NPU48 TOPSAI PC(Copilot+)

五、选购芯片到底看哪个算力指标?

你的需求主要看哪个算力指标次要指标举例
云端训练大模型(LLM)FP16 / BF16 TFLOPS显存带宽(GB/s)H100:1979 TFLOPS(FP16)
云端推理(高精度)FP16 / FP32 TFLOPS推理延迟根据业务需求估算
云端推理(性价比)INT8 TOPS吞吐量(请求/秒)L40S:1466 TOPS
端侧AI(PC/手机)INT8 / INT4 TOPS能效比(TOPS/W)骁龙X Elite:45 TOPS
边缘设备(工业/摄像头)INT8 TOPS功耗(瓦特)RK3588:6 TOPS
嵌入式/物联网INT4 TOPS内存带宽

六、常见误区

误区1:TOPS越高芯片越好

TOPS高不等于实际推理速度快。影响推理速度的因素包括:内存带宽(能否快速“喂”数据给计算单元)、算子库优化程度、功耗墙(是否因过热降频)。有的芯片标注TOPS很高,但实测速度反而不如低TOPS产品。

误区2:把FP16算力和INT8算力直接对比

有些营销材料刻意模糊精度,混淆FP16和INT8的算力数据。选型前要确认你关注的精度是否与供应商给出的算力单位一致,同时留意是否存在其他影响实际性能的因素。

误区3:只看峰值算力不看持续算力

很多芯片宣传“峰值算力”是在实验室特定条件下测得的,实际部署时受散热、功耗、内存带宽限制,持续算力往往只有峰值的一半。所以实测远比标称重要

误区4:过于关注算力指标,忽略能耗

在边缘部署中,功耗比算力更关键。一个100TOPS但100W的芯片,在工业现场可能因为散热问题根本无法使用。50TOPS但15W的芯片反而更合适。

七、选芯片不是“看谁数字大”

AI芯片的算力单位体系复杂,FP16、INT8、TOPS、TFLOPS各有各的用途。选芯片,先确认你的使用场景:如果是训练模型,盯着FP16/BF16 TFLOPS和显存带宽;如果是端侧推理(手机/PC/边缘设备),盯着INT8 TOPS和能效比;如果是服务器推理,除INT8 TOPS外还要看吞吐量和延迟数据。

最重要的是,不要只看厂商的宣传册,尽量用你自己的模型在目标芯片上做实测。因为算力数字是“理论最高值”,真实世界里的功耗墙、散热限制、内存瓶颈,往往比算力本身更能决定芯片的实际表现。


现在联系华一,立即提升您的产品核心竞争力
友情链接:
技术前沿
关于我们
网站地图
全国咨询热线

手机: +86 13923405632

©2018 深圳华一精品科技有限公司 版权所有 粤ICP备20069397号